[Day 1] 緣起與文章主題介紹

2024 iThome 鐵人賽

DAY 1

AI/ ML & Data

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 1 篇

16th鐵人賽 kaggle data science nlp llm

壓縮甜

2024-09-15 23:57:07

446 瀏覽

分享至

緣起

如果你剛踏入數據科學的世界，那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台，匯聚了來自世界各地的數據愛好者和專家。這裡不僅有各種有趣的數據挑戰賽，還有機會贏取豐厚的獎金。當你在深夜看到一封來自 Kaggle 的 email，宣佈即將舉行一場總獎金一百萬美元、開發時間長達兩到四個月的比賽時，是不是心癢難耐，腦海裡已經浮現出自己站在領獎台上的畫面？

很多人會興奮地點進比賽頁面，看完說明後暗自嘀咕：“哎，不過就是個分類或回歸問題嘛，AI課程裡都有教過，只是數據不同罷了。” 對於 NLP 的題目，可能腦海裡已經浮現出用預訓練的BERT模型來跑一訓練資料的場景。於是，一番爆 train 之後，幻想著自己即將成為金牌得主，甚至已經在計劃如何花掉五十萬美元的獎金。然而，一頓操作猛如虎，評測結束，你可能會發現自己在排行榜上連前 5% 都進不了，更別提拿金牌了。

經歷幾次這樣的挫敗後，你可能會開始懷疑那些金牌、銀牌得主是不是真的有什麼神秘的“大神”技能，他們有超級豐富的經驗和超敏銳的直覺，我等凡人似乎遙不可及。每次比賽結束後，看著他們分享的獲獎方案，心裡充滿了好奇：“他們到底是怎麼想到這些方法的？為什麼要這樣處理數據？為什麼選擇這種模型？怎麼知道要用這些技巧？”

隨著時間的推移，我開始注意到，這些獲獎方案並非憑空出現，而是建立在大量討論和知識共享的基礎上。

Kaggle競賽的魅力在於參賽者之間的開放與合作。通過共同討論從數據中發掘的 insight、分享自己做的假設與實驗結果，互相用證據支持或反駁，參賽者們相互啟迪，最終才有機會產生幾個得獎主的高效解法。

因此，我開始深入研究這些討論區中的內容，發現通過學習這些高手們如何觀察數據、分析資料、提出假設並設計實驗來驗證這些假設，我們可以學到許多寶貴的解題思路和方法。這些方法雖然不一定適用於每個賽題，但它們提供了可以跨賽題應用的思維模式和解決問題的框架。跟隨這些大神的對話，會發現這些金牌銀牌等得獎的方案其實有跡可循，我輩凡人其實跟隨這些討論串一起思考，其實也能順藤摸瓜想到和得獎主八九不離十的方案，這本身也是極具趣味和成就感的事情。

這正是本系列文章的初衷：帶領讀者一起探索這些討論區中的寶藏，從數據洞見到最終的優勝方案，一步步揭示這些解決方案是如何誕生的。

內容規劃

由於我本身對 NLP 有比較多的經驗和研究興趣，因此本系列文章的規劃是前期會介紹一些比較傳統的 NLP 賽題，中後期會開始介紹這一兩年才有關於 LLM 相關的競賽題目。

本次鐵人賽涵蓋的主題如下，我會在每日完稿後再更新連結：

前期

Automated Essay Scoring 2.0 自動寫作評估
- 簡介：訓練一個模型以自動評分學生文章，旨在減少人工評分所需的時間和成本。目標是開發可靠的自動化評分技術，使文章評分能成為測試中的常規部分。
- [Day 2] Kaggle 自動作文評分競賽（一）- 淺談數據洩露與內容匹配：如何確認訓練數據中的潛在泄漏？
- [Day 3] Kaggle 自動作文評分競賽（二）- 隱藏的測試資料也源自 PERSUADE 2.0 Corpus 嗎？
- [Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！
- [Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略
CommonLit摘要評估
- 簡介：根據學生所寫的摘要內容，預測其在“內容”和“表達”兩個方面的得分。競賽提供包含原始文章、題目（prompt）、摘要文本（summary text）以及實際得分的訓練數據。
- [Day 6] 別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（上）
- [Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）
- [Day 8]別著急訓練模型，挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練（下）與 LGBM 模型，一起打一套組合拳吧！
- [Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略
- [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法：Head Mask Pooling 與 Multi-Task Learning

中期

LLM Prompt Recovery
- 簡介：恢覆用於改寫給定文本的LLM提示。比賽數據集包含1300多條原始文本及其對應的改寫版本，改寫版本由Gemma（Google的新開放模型系列）完成。
- [Day 11]🧟你是個準一級LLM咒言師嗎？-淺談 prompt 逆向工程
- [Day 12]🧟成為特級LLM咒言師的第一天 - 你找得到最優 Mean Prompt 嗎？從 text2text 到 vec2text
- [Day 13]🧟成為特級LLM咒言師的第二天 - 找 Mean Prompt 不用那麼麻煩：分佈相似度驅動的Mean Prompt優化
- [Day14]🧟成為特級LLM咒言師的第三天 - All you need is just "lucrarea" ：淺談文本對抗攻擊(Adversarial Attack)原理篇
- [Day 15]🧟成為特級LLM咒言師的第四天 - 為什麼"lucrarea"咒語會這麼強大？一些實驗設計與思考 - 淺談文本對抗攻擊(Adversarial Attack)實作篇
LLM Science Exam
- 簡介：本次比賽受OpenBookQA數據集啟發，要求參賽者回答由大型語言模型提出的一系列科學難題。這項工作將幫助研究人員更好地理解語言模型自我測試的能力，以及在資源受限環境下運行語言模型的潛力。
- [Day 16]輕量級模型能否在複雜科學問題上追平ChatGPT呢？- OOM了怎麼辦？淺談 LLM 分層加載技術（layer-wise loading）、Perplexity 與 RAG 策略
- [Day 17]🧐如何利用LLM生成High Quality的增強版訓練數據集？
- [Day18]🧐如何選擇適合特定任務的 LLM？深入分析評測 LLM 常用的 Benchmark 與 Leaderboard
- [Day 19]Data-Model-Model Training! 淺談如何在有限的資源上高效地訓練LLM
- [Day20]Encoder-only 與 Decoder-only 的路線之爭？淺談 Decoder-only 架構驅動的 RAG Pipeline 建置
- [Day 21]不爭了！小孩才做選擇，大人全都要！淺談 Hybrid 架構驅動的 RAG Pipeline 建置與賽題大補帖！

後期

AI Mathematical Olympiad AI 奧數挑戰賽
- 簡介：AI數學奧林匹克（AIMO）設立了一項1000萬美元的獎金，旨在推動開發能在國際數學奧林匹克（IMO）中媲美人腦的AI模型。比賽包含110道類似高中中級數學挑戰賽的問題，旨在公平評估AI的數學推理能力，避免訓練數據泄露影響評判。通過解決基準測試問題，促進AI模型在數學推理領域的進步與創新。
- [Day 22] 9.11>9.9?! 當今的大語言模型能否破解困難的奧數問題？Coding能力好數學就會比較好嗎？
- [Day 23]為何LLM每次的回答都不一樣？淺談DeepSeek模型與Self-Consistency實戰應用
- [Day24]Try and Error! 淺談整合 Tool-Integrated Reasoning 和 Code Debugging 能力的 Decode 策略
- [Day25]誰說打kaggle比賽一定要訓練模型？從第三名的解法看 Self-Consistency + Code Reasoning 之外的比賽工程技巧
LLM - Detect AI Generated Text 檢測AI生成的文本
- 簡介：這個比賽的任務是建立一個模型，用來區分由中學生和高中生撰寫的文章與大型語言模型生成的文章。目的是檢測語言模型生成的文字特征，以防止學術不端行為，並促進對語言模型文本檢測技術的發展。
- [Day 26]"是人是AI，一照便知" - 沒想到最終能找出LLM槍手的原因，是因為LLM太完美了?!
- [Day 27]照妖(AI)鏡下的秘密-利用TF-IDF、BPE編碼、Kmeans Cluster和DetectGPT技術區分人類與AI寫作
LLM 20 Questions
- 簡介：在“20 Questions”的遊戲中，使用一問一答的形式，猜出秘密詞語。每隊由一個負責提問和猜測的LLM（猜詞者）和一個負責回答的LLM（回答者）組成。目標是通過有效的提問和回答，讓猜詞者盡可能快地猜出詞語，評估LLM的推理、信息收集和協作能力。

以上是我預計會介紹的 Kaggle 競賽，個人覺得每個比賽都超級有趣：Ｄ
這些基本上都是這一兩年的競賽，所以得獎主使用的解法基本上也是現在相關研究人員時常使用的技術。由於每一個賽題都會詳細介紹當時討論區提到的一些有趣的假設和嘗試，如果時間允許的話也會介紹前四名的解法，不會只講金牌的做法（有時候金牌的做法反而比較無聊，就只是 ensemble 一堆模型而已，有用但無趣），因此可能會連續三四天都介紹同一個賽題的不同面向。

由於重點想放在這些參賽者是怎麼拆解賽題、分析數據的思路過程，因此有些過程中用到的一些常見的演算法、模型就不會特別去介紹以讓文章內容更聚焦。因此本系列比較適合熟悉自然語言處理的常見工具、演算法，以及語言模型等觀念，但缺乏怎麼使用這些模型、工具的實戰經驗的這類讀者。